14. 实现
实现:预期 Sarsa
你可以在下方找到预期 Sarsa 的伪代码。

预期 Sarsa 会在保证 Sarsa 和 Sarsamax 会收敛的同一条件下保证收敛。
注意,从理论上讲,只要步长参数 \alpha 足够小,并且满足有限状态下的无限探索贪婪算法 (GLIE) 条件,智能体保证最终会发现最优动作值函数(以及相关的最优策略)。但是,在实践中,对于我们所讨论的所有算法,通常都会完全忽略这些条件并依然能够发现最优策略。你可以在解决方案notebook中找到此类示例。
请在下个部分完成 Temporal_Difference.ipynb
的第 4 部分:TD 控制:预期 Sarsa。请记得保存内容!
你可以查看 Temporal_Difference_Solution.ipynb
的相应部分,检查你的解决方案是否正确。